Pràctica 7 — Problema 6

Anàlisi de Dades 2024-25

Autor/a

Miquel Àngel Aguiló, Joan Camps, Gerard Ribas

Publicat

17 de desembre de 2024

Enllaç git.

He estructurat un poc es headings des document

Hem de fer es README

Enunciat

La sèrie temporal ts_1 correspon a les vendes (en milers d’unitats) d’un producte en una empresa durant diversos trimestres consecutius. L’empresa cerca desenvolupar un model de pronòstic per predir les vendes futures del producte. Per això, dividiu la sèrie temporal en dos trossos: un 80% de les primeres observacions les utilitzareu per “aprendre” i deixareu el 20% restant per avaluar la capacitat predictiva del model.

(6.1) Descriviu la sèrie temporal d’aprenentatge: gràfic de la sèrie original, detecció de la tendència, anàlisi de la variabilitat i estacionalitat (en el cas que apliqui).

(6.2) Analitzau els gràfics ACF i PACF. Descomposau la sèrie d’acord amb un model additiu i un de multiplicatiu, seleccioneu el millor. Finalment, feis prediccions amb el model additiu o multiplicatiu que heu seleccionat, dibuixau els vostres pronòstics sobre la sèrie total (aprenentatge + test). Calculau l’error quadràtic mitjà de les prediccions i comentau el resultat en el context del problema.

Ara pensava, ses dades s’organitzen per períodes de 4 trimestres i ses dades completes en tenen 48 (surt exacte), però quan feim es 80% no queden múltiples de 4. no sé si hauríem d’aproximar-ho perquè es múltiples siguin exactes

Per exemple, a ?decompose diu This only works well if ‘x’ covers an integer number of complete

Introducció

Desciben el contexto del problema ; Desciben cada una de las vaiables que confoman la base de datos del estudio ; Han explicado adecuadamente la metodología estadística que se utiliza en el estudio

Anàlisi exploratòria

En primer lloc, notem que tenim 48 dades, és a dir, 12 períodes complets de quatre trimestres. Emperò, el 80% de 48 dona aproximadament 38, que no és múltiple del període. Aleshores, per facilitar l’anàlisi agafarem les primeres 36 mostres (el 75%, que correspon a 9 períodes) d’aprenentatge, i deixarem les 12 restants (3 períodes) per les prediccions.

Una vegada agafat el nombre de mostres, dibuixem la sèrie temporal de dades (el primer 75%) per tenir una primera visió de les dades. Com que no tenim cap informació del començament de la sèrie, enumerarem la sèrie començant pel període 1, on cada període té una durada d’un any (quatre trimestres), tot i que no té perquè començar al gener ja que no tenim informació al respecte.

A simple vista es pot apreciar un comportament oscil·lant i, per tant jo no se si posaria pe tant: pot ser oscil·lant i fora estacionalitat, presenta estacionalitat, idò oscil·la amb els canvis d’estació, encara que no podem saber si hi ha més vendes a l’hivern i estiu o a la primavera i tardor, idò no tenim informació sobre el començament de la sèrie. En el context del problema, es podria tractar de venda de roba d’entretemps, per exemple, ja que es vendria més en tardor i primavera.

Jo posaria dos exemples d’interpretació depenent de si comença a trimestre 1/3 o 2/4. Si tenim 4 trimestres, son 1: gener-març, 2: abril-juny, 3:juliol-setembre, 4:octubre-desembre. Primavera i tardor corresponen a trimestres 2 i 4, tendria sentit si començas amb un d’aquests. Si començàs a trimestre 1 o 3, podríem dir que es pics se corresponen amb ses temporades de rebaixes (que són al gener i al juliol. i per tant pics a trimestres 1 i 3)

Ho reescriuria com A simple vista es pot apreciar un comportament oscil·lant i amb presència d’estacionalitat, ja que les oscil·lacions presenten un patró determinat corresponent a les estacions. Ara bé, no podem saber si hi ha més vendes a l’hivern i estiu o a la primavera i tardor, idò no tenim informació sobre el començament de la sèrie. En el cas que la sèrie començàs pel primer (o tercer) trimestre de l’any, podria tractar-se d’una tenda de roba genèrica, i les vendes es concentraríen en els trimestres 1 i 3 de l’any, per mor de les rebaixes del gener i del juliol. Altrament, si la sèrie començàs al segon (o quart) semestre de l’any, es podria tractar de venda de roba d’entretemps, ja que es vendria més a la tardor i primavera.

A més, presenta una tendència clarament positiva (començam al voltant dels 60 milers i acabam al voltant del 120 milers). També s’aprecia una variabilitat més o manco constant, tot i que hi ha alguns períodes (6-7 o 9-10) amb pics més grans. Finalment, no s’aprecia cap fluctuació cíclica, la sèrie pareix bastant constant, tenint en compte l’estacionalitat i la tendència.

També podem estudiar l’estacionalitat amb un boxplot per cadascun dels trimestres. Pq al boxplot comences a comptar pel 2 en lloc de l’1 ? Pq tengui sentit amb es gràfic ts, han de sortir 1 i 3 alts, en lloc de 2 i 4, no?

Què comentam d’aquí? Se veu que oscil·la però uf se solapen, hauríem de fer una ANOVA o algo? Provant de començar a comptar per 1


    Shapiro-Wilk normality test

data:  df_aux$data
W = 0.95086, p-value = 0.1113

    Bartlett test of homogeneity of variances

data:  data by mes2
Bartlett's K-squared = 1.5703, df = 3, p-value = 0.6661
            Df Sum Sq Mean Sq F value Pr(>F)  
mes2         3   6007  2002.3   3.552 0.0251 *
Residuals   32  18037   563.7                 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

    Pairwise comparisons using paired t tests 

data:  df_aux$data and df_aux$mes2 

  1      2      3     
2 0.0115 -      -     
3 0.0235 0.0021 -     
4 0.0159 0.3520 0.0036

P value adjustment method: holm 

Amb un test d’anova i de comparació de mitjanes veim que hi ha diferències significatives entre les mitjanes del 3r al 4t i 2n semestre, i p-valors propers a 0.1 entre el 1r al 2n i 4t semestre. Així, podem corroborar que es dona l’estacionalitat esmentada.

Ara se pot estudiar s’estacionalitat i sa variabilitat com fa ella amb sa recta de regressió i calculant es coeficients, però no sé si fa falta

És que sa descomposició de sa sèrie de R ja és quan assumim es model additiu i es multiplicatiu, que és sa segona part

ACF i PACF

Vegem els gràfics ACF i PACF.

En el primer gràfic (ACF) es pot observar una clara estacionalitat, idò s’aprecia un comportament oscil·lant i repetitiu. A més, les correlacions decreixen poc a poc degut a la tendència. Pel que fa al PACF, es pot veure que una observació influeix significativament a dos trimestres més endavant (també influeix al següent però de manera no tan significativa).

Això ho hauríem de fer en cas que necessitàssim una sèrie estacionària per aplicar certes tècniques d’anàlisi (crec que no és el cas). Demà li demanam a n’irene i depenent de si fa falta o no ja ho borram / detallam més

Per ses diferències, pensava pentura té mes sentit fer sa diferencia \(y_t - y_{t-2}\), ja que estan més correlacionades

Dues diff:

Models additiu i multiplicatiu

Hem vist a l’anàlisi exploratòria que la variabilitat no creix amb el temps. Per tant, esperam que un model additiu s’ajusti més que un de multiplicatiu.

El model additiu és el següent.

Com es pot apreciar, hi ha una tendència creixent i una forta estacionalitat. Vegem ara el multiplicatiu

De la mateixa manera es veu una tendència creixent, estacionalitat i, comparant-ho amb l’additiu, no s’aprecien moltes diferències.

Jo diria que és millor s’additiu pq s’estacionalitat no decreix ni creix, però li podem demanar mem com ho feim per determinar quin és millor, an es apunts no he trobat res. Pentura es millor és simplement fent EQM (Error Quadràtic Mitjà) de com s’ajusta es model a ses dades i triar es millor. O bé mirant es ACF/PACF i veure quins estan més a ses línies blaves, però be crec que dona parescut i no se distingeix molt

Miram si millor model multiplicatiu o additiu

(aixi com està no se si se poden comparar, no tenen mateixa escala) Jo no ho compararia així, efectivament no està a sa mateixa escala i és normal que doni menos variabilitat es multiplicatiu

[1] 47.30638
[1] 0.006497169

Pentura a nes grafic següent calculam distàncies entre original i cada model, i mos quedam amb es que minimitzi sa distància? (MSE com demana a s’exercici)

Sí, i també podem aplicar es dos models per fer ses prediccions i, com les tenim, veure quin s’ajusta més

##Els nostres models La cosa és que per fer el pronòstic, no tenim la tendència, només una aproximació a partir de la recta de regressió lineal. Aleshores els resultats vists anteriorment no ens serveixen per determinar quin model ens modela millor per fer previsions futures. Per tant, el que hem de fer per modelar la sèrie és calcular uns valors d’estacionalitat a partir dels de la recta de regressió. Després, tindrem el renou d’aquest nou model i decidirem:

         Qtr1        Qtr2        Qtr3        Qtr4
1   6.3348348  -7.0598859  14.0553934  -5.2193273
2   3.7159520  -7.7687688  24.2065105  -9.0382102
3   3.3870691  -3.1976517  10.8276276 -16.6870931
4  10.4881862 -20.0265345   0.7487447 -18.5659760
5   0.7293033  -4.2954174  10.1198619 -26.0348589
6  26.6404204  -8.7343003  22.9909790 -28.0237417
7   7.2915375  -5.8631832  10.1420961 -14.4426246
8   7.7226547  -9.9020661  18.9432132  -1.4215075
9  16.4137718 -18.4909489  41.7043303 -31.6903904

Ara calcularem els residus

 [1]   9.191526  -9.482084  17.082084 -16.791526   9.191526  -9.482084
 [7]  17.082084 -16.791526   9.191526  -9.482084  17.082084 -16.791526
[13]   9.191526  -9.482084  17.082084 -16.791526   9.191526  -9.482084
[19]  17.082084 -16.791526   9.191526  -9.482084  17.082084 -16.791526
[25]   9.191526  -9.482084  17.082084 -16.791526   9.191526  -9.482084
[31]  17.082084 -16.791526

Ara ja tenim els residuals del model additiu pel quarem farem la nostra predicció. Per veure si és un bon model, anem a veure si els errors segueixen una distribució normal ()

Farem un Shapiro test per veure si segueix notmalitat:


    Shapiro-Wilk normality test

data:  a
W = 0.97447, p-value = 0.5595

Faig lo des EQM

[1] 76.90274
[1] 44.54814

Mirant això (que per jo és lo més intuïtiu per comparar una o s’altre) veim que es model multiplicatiu s’ajusta millor que l’additiu, encara que són tan parescuts que realment podríem agafar qualsevol

Mirem quins dels residuals de les sèries anteriors segueix una distribució normal, ja que si els errors segueixen normalitat (White noise), llavors ens indica que el model està ben ajustat. Fem la prova d’Agostino per ambdós models:

Prueba de Agostino para Modelo Aditivo:

    D'Agostino skewness test

data:  residuales_add
skew = -0.055484, z = -0.148947, p-value = 0.8816
alternative hypothesis: data have a skewness

Prueba de Agostino para Modelo Multiplicativo:

    D'Agostino skewness test

data:  residuales_mult
skew = 0.24219, z = 0.64528, p-value = 0.5187
alternative hypothesis: data have a skewness

Com podem comprovar, cap dels models té uns residuals que segueixin una distribució normal, així, concloem dient que els models no són bons.

Pronòstic

<<<<<<< HEAD An es apunts diu això per predir: “La predicción de la serie se realiza sumando las estimaciones de la tendencia y el factor estacional que corresponde a cada observación.” Però clar, a s’additiu per exemple tenim \(y_t = \mu_t + S_t + a_t\) on tot depen de \(t\), però ara per fer es pronostics no tenim ni \(\mu_t\) ni \(S_t\). Pentura s’ha d’estimar sa tendència com una recta de regressió i sa \(S_t\) sa mateixa per tots es períodes depenent de s’estació Tendria sentit que fos això darrer que comentes. Demà li demanam si només se referia a això o a models més elaborats (però q ns on emplearien es models additius / multiplcatius) ======= Anem a intentar preveure, a partir del model additatiu, la sèrie temporal pels 12 termes restants. Per això, el que farem sirà sumar la tendència amb l’estacionalitat. Recordem que la tendència l’aproximam amb una recta de regresió lineal (vista a l’inici del projecte). Pel que fa l’estacionalitat, no podem emprar la del ja que aquella estacionalitat està relacionada amb la tendènica calculada al model esmentat. El que hem de fer per modelar la sèrie és calcular uns valors d’estacionalitat a partir dels de la recta de regressió:

Com podem observar, la previsió no és gens bona, llavors hauríem de preveure la sèrie amb un altre model.